#‘усиленное обучение09.06.2025
Отбор токенов с высокой энтропией в RLVR повышает точность и снижает затраты на обучение LLM
‘Селективное обучение на токенах с высокой энтропией улучшает результаты рассуждений LLM и снижает вычислительные затраты, устанавливая новые рекорды на тестах AIME.’